Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
尽管最近的强化学习最近在学习复杂的行为方面非常成功,但它需要大量的数据才能学习任务,更不用说能够适应新任务了。引起这种限制的根本原因之一在于试验学习范式的强化学习范式的性质,在这种情况下,代理商与任务进行交流并进行学习仅依靠奖励信号,这是隐含的,这是隐含的和不足以学习的一项任务很好。相反,人类主要通过语义表征或自然语言指示来学习新技能。但是,将语言指示用于机器人运动控制来提高适应性,这是一个新出现的主题和挑战。在本文中,我们提出了一种元素算法,该算法通过多个操纵任务中的语言说明来解决学习技能的挑战。一方面,我们的算法利用语言指令来塑造其对任务的解释,另一方面,它仍然学会了在试用过程中解决任务。我们在机器人操纵基准(Meta-World)上评估了算法,并且在培训和测试成功率方面显着优于最先进的方法。该代码可在\ url {https://tumi6robot.wixsite.com/million}中获得。
translated by 谷歌翻译
尽管半监督学习(SSL)的最新研究已经在单标签分类问题上取得了强劲的表现,但同样重要但毫无疑问的问题是如何利用多标签分类任务中未标记数据的优势。为了将SSL的成功扩展到多标签分类,我们首先使用说明性示例进行分析,以获得有关多标签分类中存在的额外挑战的一些直觉。基于分析,我们提出了一个基于百分比的阈值调整方案的百分位摩擦,以动态地改变训练期间每个类别的正和负伪标签的得分阈值,以及动态的未标记失误权重,从而进一步降低了从早期未标记的预测。与最近的SSL方法相比,在不丧失简单性的情况下,我们在Pascal VOC2007和MS-Coco数据集上实现了强劲的性能。
translated by 谷歌翻译
在这项工作中,我们提出了一个端到端双耳语音合成系统,该系统将低抑制音频编解码器与强大的双耳解码器结合在一起,该解码器能够准确地进行语音双耳化,同时忠实地重建环境因素,例如环境噪声或混响。该网络是经过修改的矢量定量变异自动编码器,经过训练,采用了几个精心设计的目标,包括对抗性损失。我们在具有客观指标和感知研究的内部双耳数据集上评估了所提出的系统。结果表明,所提出的方法比以前的方法更接近地面真相数据。特别是,我们证明了对抗性损失在捕获创建真实听觉场景所需的环境效果中的能力。
translated by 谷歌翻译
在本文中,我们分享了我们努力建立能够翻译一千多种语言的实用机器翻译(MT)系统的发现。我们在三个研究领域中描述了结果:(i)通过利用半监督预训练的语言识别和开发数据驱动的过滤技术来构建1500多种语言的清洁,网挖数据集; (ii)通过利用大规模的多语言模型来开发用于服务不足的语言的实用MT模型,该模型训练了有监督的并行数据,以使用100多种高资源语言和单语言数据集,以增加1000多种语言; (iii)研究这些语言的评估指标的局限性,并对我们MT模型的输出进行定性分析,突出显示了这些类型模型的几种频繁误差模式。我们希望我们的工作为旨在为当前研究的语言构建MT系统的从业者提供有用的见解,并突出显示可以补充Data-Sparse设置中大量多语言模型的弱点的研究方向。
translated by 谷歌翻译
最近,对建立问题的兴趣越来越兴趣,其中跨多种模式(如文本和图像)的原因。但是,使用图像的QA通常仅限于从预定义的选项集中挑选答案。此外,在现实世界中的图像,特别是在新闻中,具有与文本共同参考的对象,其中来自两个模态的互补信息。在本文中,我们提出了一种新的QA评估基准,并在新闻文章中提出了1,384个问题,这些文章需要跨媒体接地图像中的物体接地到文本上。具体地,该任务涉及需要推理图像标题对的多跳问题,以识别接地的视觉对象,然后从新闻正文文本中预测跨度以回答问题。此外,我们介绍了一种新颖的多媒体数据增强框架,基于跨媒体知识提取和合成问题答案生成,自动增强可以为此任务提供弱监管的数据。我们在我们的基准测试中评估了基于管道和基于端到端的预先预测的多媒体QA模型,并表明他们实现了有希望的性能,而在人类性能之后大幅滞后,因此留下了未来工作的大型空间,以便在这一具有挑战性的新任务上的工作。
translated by 谷歌翻译
经过大量地震后,我们可以看到个人和媒体机构在社交媒体平台上发布的图像由于这些天智能手机的大规模使用而发布。这些图像可用于提供关于公共和研究群落的地震区域震荡损坏的信息,并且可能导致救援工作。本文提出了一种自动化的方法,可以在来自诸如Twitter等社交媒体平台的地震之后提取损坏的建筑图像,从而识别包含此类图像的特定用户帖子。使用传输学习和〜6500手动标记图像,我们培训了深入学习模型,以识别现场损坏的建筑物的图像。当在土耳其2020 M7.0地震发生后,在不同地区的新收购的地震图像上进行地震图像的地震图像时,训练有素的模型取得了良好的表现。此外,为了更好地了解模型如何做出决策,我们还实现了Grad-CAM方法来可视化促进决策的图像上的重要位置。
translated by 谷歌翻译
医疗AI通过支持基于证据的医学实践,个性化患者治疗,降低成本以及改善提供者和患者体验,推进医疗保健的巨大潜力。我们认为解锁此潜力需要一种系统的方法来衡量在大规模异构数据上的医疗AI模型的性能。为了满足这种需求,我们正在建立Medperf,这是一个开放的框架,用于在医疗领域的基准测试机器学习。 Medperf将使联合评估能够将模型安全地分配给不同的评估设施,从而赋予医疗组织在高效和人类监督过程中评估和验证AI模型的性能,同时优先考虑隐私。我们描述了当前的挑战医疗保健和AI社区面临,需要开放平台,Medperf的设计理念,其目前的实施状态和我们的路线图。我们呼吁研究人员和组织加入我们创建Medperf开放基准平台。
translated by 谷歌翻译
We propose a method that can generate an unambiguous description (known as a referring expression) of a specific object or region in an image, and which can also comprehend or interpret such an expression to infer which object is being described. We show that our method outperforms previous methods that generate descriptions of objects without taking into account other potentially ambiguous objects in the scene. Our model is inspired by recent successes of deep learning methods for image captioning, but while image captioning is difficult to evaluate, our task allows for easy objective evaluation. We also present a new large-scale dataset for referring expressions, based on MS-COCO. We have released the dataset and a toolbox for visualization and evaluation, see https://github.com/ mjhucla/Google_Refexp_toolbox.
translated by 谷歌翻译
The ImageNet Large Scale Visual Recognition Challenge is a benchmark in object category classification and detection on hundreds of object categories and millions of images. The challenge has been run annually from 2010 to present, attracting participation from more than fifty institutions. This paper describes the creation of this benchmark dataset and the advances in object recognition that have been possible as a result. We discuss the chal-
translated by 谷歌翻译